<html xmlns:v="urn:schemas-microsoft-com:vml"
xmlns:o="urn:schemas-microsoft-com:office:office"
xmlns:w="urn:schemas-microsoft-com:office:word"
xmlns="http://www.w3.org/TR/REC-html40">

<head>
<meta http-equiv=Content-Type content="text/html; charset=utf-8">
<meta name=ProgId content=Word.Document>
<meta name=Generator content="Microsoft Word 9">
<meta name=Originator content="Microsoft Word 9">
<link rel=File-List href="./Dialog2004-Dateien/filelist.xml">
<link rel=Edit-Time-Data href="./Dialog2004-Dateien/editdata.mso">
<link rel=OLE-Object-Data href="./Dialog2004-Dateien/oledata.mso">
<!--[if !mso]>
<style>
v\:* {behavior:url(#default#VML);}
o\:* {behavior:url(#default#VML);}
w\:* {behavior:url(#default#VML);}
.shape {behavior:url(#default#VML);}
</style>
<![endif]-->
<title>Морфологические модули на сайте www</title>
<!--[if gte mso 9]><xml>
 <o:DocumentProperties>
  <o:Author>DWDS</o:Author>
  <o:Template>Normal</o:Template>
  <o:LastAuthor>DWDS</o:LastAuthor>
  <o:Revision>2</o:Revision>
  <o:Created>2004-02-20T14:59:00Z</o:Created>
  <o:LastSaved>2004-02-20T14:59:00Z</o:LastSaved>
  <o:Pages>7</o:Pages>
  <o:Words>2639</o:Words>
  <o:Characters>15046</o:Characters>
  <o:Company>BBAW</o:Company>
  <o:Lines>125</o:Lines>
  <o:Paragraphs>30</o:Paragraphs>
  <o:CharactersWithSpaces>18477</o:CharactersWithSpaces>
  <o:Version>9.2812</o:Version>
 </o:DocumentProperties>
</xml><![endif]--><!--[if gte mso 9]><xml>
 <w:WordDocument>
  <w:HyphenationZone>21</w:HyphenationZone>
 </w:WordDocument>
</xml><![endif]-->
<style>
<!--
 /* Font Definitions */
@font-face
	{font-family:Courier;
	panose-1:0 0 0 0 0 0 0 0 0 0;
	mso-font-charset:0;
	mso-generic-font-family:modern;
	mso-font-format:other;
	mso-font-pitch:fixed;
	mso-font-signature:3 0 0 0 1 0;}
@font-face
	{font-family:Wingdings;
	panose-1:5 0 0 0 0 0 0 0 0 0;
	mso-font-charset:2;
	mso-generic-font-family:auto;
	mso-font-pitch:variable;
	mso-font-signature:0 268435456 0 0 -2147483648 0;}
 /* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
	{mso-style-parent:"";
	margin:0cm;
	margin-bottom:.0001pt;
	mso-pagination:widow-orphan;
	font-size:12.0pt;
	font-family:"Times New Roman";
	mso-fareast-font-family:"Times New Roman";}
h1
	{mso-style-next:Standard;
	margin-top:12.0pt;
	margin-right:0cm;
	margin-bottom:3.0pt;
	margin-left:0cm;
	mso-pagination:widow-orphan;
	page-break-after:avoid;
	mso-outline-level:1;
	font-size:16.0pt;
	font-family:Arial;
	mso-font-kerning:16.0pt;
	mso-ansi-language:RU;
	mso-fareast-language:RU;}
h2
	{mso-style-next:Standard;
	margin-top:12.0pt;
	margin-right:0cm;
	margin-bottom:3.0pt;
	margin-left:0cm;
	mso-pagination:widow-orphan;
	page-break-after:avoid;
	mso-outline-level:2;
	font-size:14.0pt;
	font-family:Arial;
	mso-ansi-language:RU;
	mso-fareast-language:RU;
	font-style:italic;}
p.MsoFootnoteText, li.MsoFootnoteText, div.MsoFootnoteText
	{margin:0cm;
	margin-bottom:.0001pt;
	mso-pagination:widow-orphan;
	font-size:10.0pt;
	font-family:"Times New Roman";
	mso-fareast-font-family:"Times New Roman";
	mso-ansi-language:RU;
	mso-fareast-language:RU;}
span.MsoFootnoteReference
	{vertical-align:super;}
p.MsoBodyTextIndent, li.MsoBodyTextIndent, div.MsoBodyTextIndent
	{margin:0cm;
	margin-bottom:.0001pt;
	text-indent:36.0pt;
	mso-pagination:widow-orphan;
	font-size:12.0pt;
	font-family:"Times New Roman";
	mso-fareast-font-family:"Times New Roman";
	mso-ansi-language:RU;}
a:link, span.MsoHyperlink
	{color:blue;
	text-decoration:underline;
	text-underline:single;}
a:visited, span.MsoHyperlinkFollowed
	{color:purple;
	text-decoration:underline;
	text-underline:single;}
tt
	{mso-ascii-font-family:"Courier New";
	mso-fareast-font-family:"Courier New";
	mso-hansi-font-family:"Courier New";
	mso-bidi-font-family:"Courier New";}
@page Section1
	{size:595.3pt 841.9pt;
	margin:2.0cm 42.5pt 2.0cm 90.0pt;
	mso-header-margin:35.4pt;
	mso-footer-margin:35.4pt;
	mso-paper-source:0;}
div.Section1
	{page:Section1;}
 /* List Definitions */
@list l0
	{mso-list-id:223108157;
	mso-list-type:hybrid;
	mso-list-template-ids:2057211898 767213448 68747289 68747291 68747279 68747289 68747291 68747279 68747289 68747291;}
@list l0:level1
	{mso-level-tab-stop:91.65pt;
	mso-level-number-position:left;
	margin-left:91.65pt;
	text-indent:-56.25pt;}
@list l1
	{mso-list-id:341203845;
	mso-list-type:hybrid;
	mso-list-template-ids:1634521760 -1619212168 67567641 67567643 67567631 67567641 67567643 67567631 67567641 67567643;}
@list l1:level1
	{mso-level-tab-stop:45.0pt;
	mso-level-number-position:left;
	margin-left:45.0pt;
	text-indent:-18.0pt;}
@list l2
	{mso-list-id:356009326;
	mso-list-type:hybrid;
	mso-list-template-ids:1140081644 186025592 67567641 67567643 67567631 67567641 67567643 67567631 67567641 67567643;}
@list l2:level1
	{mso-level-tab-stop:82.65pt;
	mso-level-number-position:left;
	margin-left:82.65pt;
	text-indent:-47.25pt;}
@list l3
	{mso-list-id:385835828;
	mso-list-type:hybrid;
	mso-list-template-ids:166913162 268054016 654979272 -951309830 -1537954000 1871582564 519361522 2045806436 -1417761700 -584290510;}
@list l3:level1
	{mso-level-number-format:bullet;
	mso-level-text:\F0B7;
	mso-level-tab-stop:36.0pt;
	mso-level-number-position:left;
	text-indent:-18.0pt;
	mso-ansi-font-size:10.0pt;
	font-family:Symbol;}
@list l4
	{mso-list-id:440031913;
	mso-list-type:hybrid;
	mso-list-template-ids:-138876204 -556529286 68747289 68747291 68747279 68747289 68747291 68747279 68747289 68747291;}
@list l4:level1
	{mso-level-tab-stop:53.25pt;
	mso-level-number-position:left;
	margin-left:53.25pt;
	text-indent:-18.0pt;}
@list l5
	{mso-list-id:638724619;
	mso-list-type:hybrid;
	mso-list-template-ids:-938200158 699436042 67567641 67567643 67567631 67567641 67567643 67567631 67567641 67567643;}
@list l5:level1
	{mso-level-tab-stop:53.25pt;
	mso-level-number-position:left;
	margin-left:53.25pt;
	text-indent:-18.0pt;}
@list l6
	{mso-list-id:646710482;
	mso-list-type:hybrid;
	mso-list-template-ids:-1095070922 679789634 68747289 68747291 68747279 68747289 68747291 68747279 68747289 68747291;}
@list l6:level1
	{mso-level-tab-stop:53.25pt;
	mso-level-number-position:left;
	margin-left:53.25pt;
	text-indent:-18.0pt;}
@list l7
	{mso-list-id:1092818882;
	mso-list-type:hybrid;
	mso-list-template-ids:221575396 -958249478 68747289 68747291 68747279 68747289 68747291 68747279 68747289 68747291;}
@list l7:level1
	{mso-level-tab-stop:53.4pt;
	mso-level-number-position:left;
	margin-left:53.4pt;
	text-indent:-18.0pt;}
@list l8
	{mso-list-id:1162742980;
	mso-list-type:hybrid;
	mso-list-template-ids:160443082 557992386 68747289 68747291 68747279 68747289 68747291 68747279 68747289 68747291;}
@list l8:level1
	{mso-level-tab-stop:53.25pt;
	mso-level-number-position:left;
	margin-left:53.25pt;
	text-indent:-18.0pt;}
@list l9
	{mso-list-id:1347055680;
	mso-list-type:hybrid;
	mso-list-template-ids:419308576 2124345886 68747289 68747291 68747279 68747289 68747291 68747279 68747289 68747291;}
@list l9:level1
	{mso-level-tab-stop:53.25pt;
	mso-level-number-position:left;
	margin-left:53.25pt;
	text-indent:-18.0pt;}
@list l10
	{mso-list-id:1426533756;
	mso-list-type:hybrid;
	mso-list-template-ids:-1110410000 -460415702 67567641 67567643 67567631 67567641 67567643 67567631 67567641 67567643;}
@list l10:level1
	{mso-level-tab-stop:53.25pt;
	mso-level-number-position:left;
	margin-left:53.25pt;
	text-indent:-18.0pt;}
@list l11
	{mso-list-id:1457675682;
	mso-list-type:hybrid;
	mso-list-template-ids:-21692860 1255865016 67567641 67567643 67567631 67567641 67567643 67567631 67567641 67567643;}
@list l11:level1
	{mso-level-tab-stop:53.25pt;
	mso-level-number-position:left;
	margin-left:53.25pt;
	text-indent:-18.0pt;}
@list l12
	{mso-list-id:1584291795;
	mso-list-type:hybrid;
	mso-list-template-ids:-260514426 -485309530 1280072966 567703558 44877864 797356776 -15439768 -954169108 1803350442 -1272679020;}
@list l12:level1
	{mso-level-tab-stop:36.0pt;
	mso-level-number-position:left;
	text-indent:-18.0pt;}
@list l13
	{mso-list-id:1753814738;
	mso-list-type:hybrid;
	mso-list-template-ids:-171797228 -731993076 67567641 67567643 67567631 67567641 67567643 67567631 67567641 67567643;}
@list l13:level1
	{mso-level-tab-stop:53.25pt;
	mso-level-number-position:left;
	margin-left:53.25pt;
	text-indent:-18.0pt;}
@list l14
	{mso-list-id:1814832078;
	mso-list-type:hybrid;
	mso-list-template-ids:1460990914 67567631 67567641 67567643 67567631 67567641 67567643 67567631 67567641 67567643;}
@list l14:level1
	{mso-level-tab-stop:36.0pt;
	mso-level-number-position:left;
	text-indent:-18.0pt;}
@list l15
	{mso-list-id:1876430036;
	mso-list-type:hybrid;
	mso-list-template-ids:-935807876 -2068781218 68747289 68747291 68747279 68747289 68747291 68747279 68747289 68747291;}
@list l15:level1
	{mso-level-tab-stop:45.0pt;
	mso-level-number-position:left;
	margin-left:45.0pt;
	text-indent:-18.0pt;}
@list l16
	{mso-list-id:1929800579;
	mso-list-type:hybrid;
	mso-list-template-ids:-925470894 1794255494 68747289 68747291 68747279 68747289 68747291 68747279 68747289 68747291;}
@list l16:level1
	{mso-level-tab-stop:45.0pt;
	mso-level-number-position:left;
	margin-left:45.0pt;
	text-indent:-18.0pt;}
@list l17
	{mso-list-id:2029066806;
	mso-list-type:hybrid;
	mso-list-template-ids:1645491484 1853917560 67567641 67567643 67567631 67567641 67567643 67567631 67567641 67567643;}
@list l17:level1
	{mso-level-tab-stop:53.4pt;
	mso-level-number-position:left;
	margin-left:53.4pt;
	text-indent:-18.0pt;}
@list l18
	{mso-list-id:2075349146;
	mso-list-type:hybrid;
	mso-list-template-ids:-1325105828 -418714948 67567641 67567643 67567631 67567641 67567643 67567631 67567641 67567643;}
@list l18:level1
	{mso-level-tab-stop:53.25pt;
	mso-level-number-position:left;
	margin-left:53.25pt;
	text-indent:-18.0pt;}
@list l19
	{mso-list-id:2126650293;
	mso-list-type:hybrid;
	mso-list-template-ids:-1184039224 67567631 67567641 67567643 67567631 67567641 67567643 67567631 67567641 67567643;}
@list l19:level1
	{mso-level-tab-stop:36.0pt;
	mso-level-number-position:left;
	text-indent:-18.0pt;}
ol
	{margin-bottom:0cm;}
ul
	{margin-bottom:0cm;}
-->
</style>
<!--[if gte mso 9]><xml>
 <o:shapedefaults v:ext="edit" spidmax="2050"/>
</xml><![endif]--><!--[if gte mso 9]><xml>
 <o:shapelayout v:ext="edit">
  <o:idmap v:ext="edit" data="1"/>
 </o:shapelayout></xml><![endif]-->
</head>

<body lang=DE link=blue vlink=purple style='tab-interval:35.4pt'>

<div class=Section1>

<h1 align=center style='text-align:center'><span lang=RU>Морфологические модули
на сайте </span><span style='mso-ansi-language:DE'>www</span><span lang=RU>.</span><span
style='mso-ansi-language:DE'>aot</span><span lang=RU>.</span><span
style='mso-ansi-language:DE'>ru</span></h1>

<h1><span lang=RU><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></h1>

<p class=MsoNormal align=center style='mso-margin-top-alt:auto;mso-margin-bottom-alt:
auto;text-align:center'><b><span lang=RU style='font-size:14.0pt;color:black;
mso-ansi-language:RU'>А. В. Сокирко<o:p></o:p></span></b></p>

<p class=MsoNormal align=center style='mso-margin-top-alt:auto;mso-margin-bottom-alt:
auto;text-align:center'><i><span lang=RU style='color:black;mso-ansi-language:
RU'>Берлинская и Бранденбургская Академия наук<o:p></o:p></span></i></p>

<p class=MsoNormal align=center style='mso-margin-top-alt:auto;mso-margin-bottom-alt:
auto;text-align:center'><span style='font-size:10.0pt;font-family:Courier;
mso-bidi-font-family:Courier;color:black'><a href="mailto:sokirko@yandex.ru">sokirko<span
lang=RU style='mso-ansi-language:RU'>@</span>yandex<span lang=RU
style='mso-ansi-language:RU'>.</span>ru</a></span><span lang=RU
style='font-size:10.0pt;font-family:Courier;mso-bidi-font-family:Courier;
color:black;mso-ansi-language:RU'><o:p></o:p></span></p>

<p class=MsoNormal align=center style='mso-margin-top-alt:auto;mso-margin-bottom-alt:
auto;text-align:center'><span style='font-size:10.0pt;font-family:Courier;
mso-bidi-font-family:Courier;color:black'><a href="mailto:sokirko@dwds.de">sokirko<span
lang=RU style='mso-ansi-language:RU'>@</span>dwds<span lang=RU
style='mso-ansi-language:RU'>.</span>de</a></span><span lang=RU
style='font-size:10.0pt;font-family:Courier;mso-bidi-font-family:Courier;
color:black;mso-ansi-language:RU'><o:p></o:p></span></p>

<p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

<h2><span lang=RU>Обоснование</span></h2>

<p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:35.4pt'><span lang=RU style='mso-ansi-language:
RU'>Системы морфологического анализа и синтеза развиваются уже не одно
десятилетие, и серьезная обработка текста уже, пожалуй, немыслима без их
помощи. Как в России, так и за рубежом на рынке существуют много коммерческих
программ, которые могут успешно справляться с этими задачами, но, к сожалению, они
не могут быть использованы для научных экспериментов из-за их крайней высокой
цены и отсутствия<span style="mso-spacerun: yes">  </span>исходного кода. С
другой стороны, существуют бесплатные модули, которые, впрочем, часто
неприемлемы из-за низкой скорости обработки слов и неполноты словарных баз. <o:p></o:p></span></p>

<p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'><span
style='mso-tab-count:1'>            </span>Морфологические модули сайте </span><a
href="http://www.aot.ru/">www<span lang=RU style='mso-ansi-language:RU'>.</span>aot<span
lang=RU style='mso-ansi-language:RU'>.</span>ru</a><span lang=RU
style='mso-ansi-language:RU'><span style="mso-spacerun: yes">  </span>призваны
решить указанную выше проблему, обеспечив научные коллективы и вообще любых
возможных энтузиастов-экспериментаторов системой морфологического анализа и синтеза,
которая:<o:p></o:p></span></p>

<p class=MsoNormal style='margin-left:53.25pt;text-indent:-18.0pt;mso-list:
l5 level1 lfo12;tab-stops:list 53.25pt'><![if !supportLists]><span lang=RU
style='mso-ansi-language:RU'>1.<span style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
</span></span><![endif]><span lang=RU style='mso-ansi-language:RU'>уже обладает
словарями достаточно большого объема, пополняется добровольцами, поэтому не
должна в будущем устаревать;<o:p></o:p></span></p>

<p class=MsoNormal style='margin-left:53.25pt;text-indent:-18.0pt;mso-list:
l5 level1 lfo12;tab-stops:list 53.25pt'><![if !supportLists]><span lang=RU
style='mso-ansi-language:RU'>2.<span style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
</span></span><![endif]><span lang=RU style='mso-ansi-language:RU'>при поиске в
словаре использует конечный автомат, что позволяет находить слово за линейное
от его длины время (очень быстро);<o:p></o:p></span></p>

<p class=MsoNormal style='margin-left:53.25pt;text-indent:-18.0pt;mso-list:
l5 level1 lfo12;tab-stops:list 53.25pt'><![if !supportLists]><span lang=RU
style='mso-ansi-language:RU'>3.<span style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
</span></span><![endif]><span lang=RU style='mso-ansi-language:RU'>написана на
С++, компилируется под<span style="mso-spacerun: yes">  </span></span>Linux<span
lang=RU style='mso-ansi-language:RU'><span style="mso-spacerun: yes">  </span>и
под </span>Windows<span lang=RU style='mso-ansi-language:RU'>;<o:p></o:p></span></p>

<p class=MsoNormal style='margin-left:53.25pt;text-indent:-18.0pt;mso-list:
l5 level1 lfo12;tab-stops:list 53.25pt'><![if !supportLists]><span lang=RU
style='mso-ansi-language:RU'>4.<span style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
</span></span><![endif]><span lang=RU style='mso-ansi-language:RU'>обладает
развитой системой добавления новых слов;<o:p></o:p></span></p>

<p class=MsoNormal style='margin-left:53.25pt;text-indent:-18.0pt;mso-list:
l5 level1 lfo12;tab-stops:list 53.25pt'><![if !supportLists]><span lang=RU
style='mso-ansi-language:RU'>5.<span style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
</span></span><![endif]><span lang=RU style='mso-ansi-language:RU'>имеет в
распоряжении русский, немецкий и английский лексиконы;<o:p></o:p></span></p>

<p class=MsoNormal style='margin-left:53.25pt;text-indent:-18.0pt;mso-list:
l5 level1 lfo12;tab-stops:list 53.25pt'><![if !supportLists]><span lang=RU
style='mso-ansi-language:RU'>6.<span style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
</span></span><![endif]><span lang=RU style='mso-ansi-language:RU'>распространяется
бесплатно под лицензией </span>LGPL<span lang=RU style='mso-ansi-language:RU'>
в исходных кодах.<o:p></o:p></span></p>

<p class=MsoBodyTextIndent><span lang=RU>Все указанные выше свойства по
отдельности можно встретить в существующих модулях морфологического анализа,
однако именно данное сочетание свойств составляет<span style="mso-spacerun:
yes">  </span>новизну и актуальность представленной системы.</span></p>

<p class=MsoBodyTextIndent><span lang=RU><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

<p class=MsoBodyTextIndent><span lang=RU><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

<h2><span lang=RU>Структура морфологического словаря</span></h2>

<p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

<p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:35.4pt'><span lang=RU style='mso-ansi-language:
RU'>Морфологический словарь, или лексикон, содержит все словоформы одного
языка,<span style="mso-spacerun: yes">  </span>в нашем случае: английского,
немецкого или русского.<span style="mso-spacerun: yes">   </span>Структуру
словаря проще всего представить в виде реляционной<span style="mso-spacerun:
yes">  </span>схемы:<o:p></o:p></span></p>

<p class=MsoNormal><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></p>

<p class=MsoNormal><!--[if gte vml 1]><v:shapetype id="_x0000_t75" coordsize="21600,21600"
 o:spt="75" o:preferrelative="t" path="m@4@5l@4@11@9@11@9@5xe" filled="f"
 stroked="f">
 <v:stroke joinstyle="miter"/>
 <v:formulas>
  <v:f eqn="if lineDrawn pixelLineWidth 0"/>
  <v:f eqn="sum @0 1 0"/>
  <v:f eqn="sum 0 0 @1"/>
  <v:f eqn="prod @2 1 2"/>
  <v:f eqn="prod @3 21600 pixelWidth"/>
  <v:f eqn="prod @3 21600 pixelHeight"/>
  <v:f eqn="sum @0 0 1"/>
  <v:f eqn="prod @6 1 2"/>
  <v:f eqn="prod @7 21600 pixelWidth"/>
  <v:f eqn="sum @8 21600 0"/>
  <v:f eqn="prod @7 21600 pixelHeight"/>
  <v:f eqn="sum @10 21600 0"/>
 </v:formulas>
 <v:path o:extrusionok="f" gradientshapeok="t" o:connecttype="rect"/>
 <o:lock v:ext="edit" aspectratio="t"/>
</v:shapetype><v:shape id="_x0000_i1025" type="#_x0000_t75" style='width:390.75pt;
 height:201.75pt' o:ole="">
 <v:imagedata src="./Dialog2004-Dateien/image001.png" o:title=""/>
</v:shape><![endif]--><![if !vml]><img border=0 width=521 height=269
src="./Dialog2004-Dateien/image002.jpg" v:shapes="_x0000_i1025"><![endif]><!--[if gte mso 9]><xml>
 <o:OLEObject Type="Embed" ProgID="PBrush" ShapeID="_x0000_i1025"
  DrawAspect="Content" ObjectID="_1138797905">
 </o:OLEObject>
</xml><![endif]--></p>

<p class=MsoNormal><span style='mso-tab-count:1'>            </span><span
lang=RU style='mso-ansi-language:RU'><o:p></o:p></span></p>

<p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'>Таблица </span>Lemmata<span
lang=RU style='mso-ansi-language:RU'><span style="mso-spacerun: yes"> 
</span>содержит перечень всех лемм данного словаря, для каждой леммы даны ее
свойства:<o:p></o:p></span></p>

<p class=MsoNormal style='margin-left:53.25pt;text-indent:-18.0pt;mso-list:
l13 level1 lfo13;tab-stops:list 53.25pt'><![if !supportLists]><span lang=RU
style='mso-ansi-language:RU'>1.<span style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
</span></span><![endif]><span lang=RU style='mso-ansi-language:RU'>псевдооснова<span
style="mso-spacerun: yes">  </span>слова (общая для всех словоформ данного
слова подстрока),<br>
(поле </span>BaseStr<span lang=RU style='mso-ansi-language:RU'>);<o:p></o:p></span></p>

<p class=MsoNormal style='margin-left:53.25pt;text-indent:-18.0pt;mso-list:
l13 level1 lfo13;tab-stops:list 53.25pt'><![if !supportLists]><span lang=RU
style='mso-ansi-language:RU'>2.<span style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
</span></span><![endif]><span lang=RU style='mso-ansi-language:RU'>ссылка на
набор окончаний (поле </span>FlexiaModelId<span lang=RU style='mso-ansi-language:
RU'>) ;<o:p></o:p></span></p>

<p class=MsoNormal style='margin-left:53.25pt;text-indent:-18.0pt;mso-list:
l13 level1 lfo13;tab-stops:list 53.25pt'><![if !supportLists]><span lang=RU
style='mso-ansi-language:RU'>3.<span style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
</span></span><![endif]><span lang=RU style='mso-ansi-language:RU'>ссылка на
набор ударений (поле </span>AccentModelId<span lang=RU style='mso-ansi-language:
RU'>) ;<o:p></o:p></span></p>

<p class=MsoNormal style='margin-left:53.25pt;text-indent:-18.0pt;mso-list:
l13 level1 lfo13;tab-stops:list 53.25pt'><![if !supportLists]><span lang=RU
style='mso-ansi-language:RU'>4.<span style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
</span></span><![endif]><span lang=RU style='mso-ansi-language:RU'>ссылка на
набор приставок (поле </span>PrefixSetId<span lang=RU style='mso-ansi-language:
RU'>) ;<o:p></o:p></span></p>

<p class=MsoNormal style='margin-left:53.25pt;text-indent:-18.0pt;mso-list:
l13 level1 lfo13;tab-stops:list 53.25pt'><![if !supportLists]><span lang=RU
style='mso-ansi-language:RU'>5.<span style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
</span></span><![endif]><span lang=RU style='mso-ansi-language:RU'>ссылка на
пользовательскую сессию, при которой была внесено последнее изменение этой
записи (поле </span>SessionId<span lang=RU style='mso-ansi-language:RU'>) ;<o:p></o:p></span></p>

<p class=MsoNormal style='margin-left:53.25pt;text-indent:-18.0pt;mso-list:
l13 level1 lfo13;tab-stops:list 53.25pt'><![if !supportLists]><span lang=RU
style='mso-ansi-language:RU'>6.<span style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
</span></span><![endif]>c<span lang=RU style='mso-ansi-language:RU'>сылка на
общие граммемы данной леммы (поле </span>Ancode<span lang=RU style='mso-ansi-language:
RU'>) (может быть пустым).<o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:35.25pt'><span lang=RU style='mso-ansi-language:
RU'>Общие граммемы данной леммы, это те граммемы, которые должны быть приписаны
всем словоформам данной леммы, например, граммема «фам» (фамилия), или граммема
«лок» - локативность. Это часто уже семантизированные граммемы.<o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:35.25pt'><span lang=RU style='mso-ansi-language:
RU'><span style='mso-tab-count:1'>            </span>Набор приставок леммы –
это те приставки, с которыми лемма образует полное слова языка.<span
style="mso-spacerun: yes">  </span>В набор приставок может входить пустая
приставка,<span style="mso-spacerun: yes">  </span>что означает, что лемма
может быть использована сама по себе (без приставок).</span></p>

<p class=MsoNormal style='text-indent:35.25pt'><span lang=RU style='mso-ansi-language:
RU'>Таблица </span>FlexiaModels<span style='mso-ansi-language:RU'> </span>c<span
lang=RU style='mso-ansi-language:RU'>одержит перечень возможных окончаний всех
лемм. Уникальным ключом здесь являются поля </span>FlexiaModelId<span lang=RU
style='mso-ansi-language:RU'> и </span>FormNo<span lang=RU style='mso-ansi-language:
RU'>. Поле </span>FormNo<span lang=RU style='mso-ansi-language:RU'> содержит
порядковый номер окончания в данном наборе окончаний, соответственно,<span
style="mso-spacerun: yes">  </span></span>FormNo<span lang=RU style='mso-ansi-language:
RU'> не превосходит максимальное кол-во словоформ в одно парадигме. Далее:<o:p></o:p></span></p>

<p class=MsoNormal style='margin-left:53.25pt;text-indent:-18.0pt;mso-list:
l10 level1 lfo14;tab-stops:list 53.25pt'><![if !supportLists]><span lang=RU
style='mso-ansi-language:RU'>1.<span style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
</span></span><![endif]><span lang=RU style='mso-ansi-language:RU'>Поле </span>PrefixStr<span
lang=RU style='mso-ansi-language:RU'> содержит префикс данной словоформы
(возможно, пустой)<o:p></o:p></span></p>

<p class=MsoNormal style='margin-left:53.25pt;text-indent:-18.0pt;mso-list:
l10 level1 lfo14;tab-stops:list 53.25pt'><![if !supportLists]><span lang=RU
style='mso-ansi-language:RU'>2.<span style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
</span></span><![endif]><span lang=RU style='mso-ansi-language:RU'>Поле </span>FlexiaStr<span
lang=RU style='mso-ansi-language:RU'> содержит окончание данной словоформы
(возможно, пустое)<o:p></o:p></span></p>

<p class=MsoNormal style='margin-left:53.25pt;text-indent:-18.0pt;mso-list:
l10 level1 lfo14;tab-stops:list 53.25pt'><![if !supportLists]><span lang=RU
style='mso-ansi-language:RU'>3.<span style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
</span></span><![endif]><span lang=RU style='mso-ansi-language:RU'>Поле </span>Ancode<span
lang=RU style='mso-ansi-language:RU'> содержит морфологическую интерпретацию
данной словоформы.<o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:27.0pt'><span lang=RU style='mso-ansi-language:
RU'>Пусть у нас есть запись </span>Q<span lang=RU style='mso-ansi-language:
RU'> из таблицы </span>Lemmata<span lang=RU style='mso-ansi-language:RU'>.
Пусть </span>P<span lang=RU style='mso-ansi-language:RU'> один из ее возможных
префиксов, взятых по полю </span>Q<span lang=RU style='mso-ansi-language:RU'>.</span>PrefixSetId<span
lang=RU style='mso-ansi-language:RU'>. Для того, чтобы получить </span>i<span
lang=RU style='mso-ansi-language:RU'>-ю словоформу данной леммы, надо найти в
таблице </span>FlexiaModels<span lang=RU style='mso-ansi-language:RU'> запись </span>R<span
lang=RU style='mso-ansi-language:RU'>, такую, что </span>Q<span lang=RU
style='mso-ansi-language:RU'>.</span>FlexiaModelId<span lang=RU
style='mso-ansi-language:RU'>=</span>R<span lang=RU style='mso-ansi-language:
RU'>.</span>FlexiaModelId<span lang=RU style='mso-ansi-language:RU'> и<span
style="mso-spacerun: yes">  </span></span>R<span lang=RU style='mso-ansi-language:
RU'>.</span>FormNo<span lang=RU style='mso-ansi-language:RU'>=</span>i<span
lang=RU style='mso-ansi-language:RU'>, тогда </span>i<span lang=RU
style='mso-ansi-language:RU'>-я словоформа будет равна: <o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:27.0pt'><span lang=RU style='mso-ansi-language:
RU'><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

<p class=MsoNormal style='margin-left:35.4pt;text-indent:35.4pt'>P+R.PrefixStr+Q.BaseStr+R.FlexiaStr.</p>

<p class=MsoNormal style='margin-left:35.4pt;text-indent:35.4pt'><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></p>

<p class=MsoNormal style='text-indent:35.4pt'><span lang=RU style='mso-ansi-language:
RU'>Таблица </span>AccentModels<span lang=RU style='mso-ansi-language:RU'>
содержит перечень возможных номеров ударных гласных для словоформ.<span
style="mso-spacerun: yes">  </span>Уникальным ключом являются поля </span>AccentModelId<span
lang=RU style='mso-ansi-language:RU'> и </span>FormNo<span lang=RU
style='mso-ansi-language:RU'>. Поле<span style="mso-spacerun: yes">  </span></span>FormNo<span
lang=RU style='mso-ansi-language:RU'> выполняет такую же роль, что и в таблице </span>FlexiaModels<span
lang=RU style='mso-ansi-language:RU'>. Поле </span>AccentedCharNo<span
style='mso-ansi-language:RU'> <span lang=RU>содержит номер ударной гласной с
конца слова. Для каждой словоформы<span style="mso-spacerun: yes">  </span>в
словаре<span style="mso-spacerun: yes">  </span>должно быть указано ударение,
если<span style="mso-spacerun: yes">  </span>ударения нет, тогда
используется<span style="mso-spacerun: yes">  </span>специальная константа
(255).</span></span></p>

<p class=MsoNormal style='text-indent:35.4pt'><span lang=RU style='mso-ansi-language:
RU'>Таблица </span>Ancodes<span lang=RU style='mso-ansi-language:RU'> содержит
все возможные морфологические интерпретации. Ключом<span style="mso-spacerun:
yes">  </span>является поле </span>Ancode<span lang=RU style='mso-ansi-language:
RU'> («аношкинский код»). Поле </span>PartOfSpeech<span lang=RU
style='mso-ansi-language:RU'> содержит часть речи (</span>C<span lang=RU
style='mso-ansi-language:RU'>,Г,П,...), а поле </span>Grammems<span lang=RU
style='mso-ansi-language:RU'> набор граммем, типа «мр,но,ед,им».<o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:35.4pt'><span lang=RU style='mso-ansi-language:
RU'>Вышеописанная схема показывает принципиальные возможности и ограничения
структуры одного словаря.<span style="mso-spacerun: yes">  </span>Видно, что
словарь может хранить информацию о словах, возможных окончаниях, возможных<span
style="mso-spacerun: yes">  </span>приставках, которые могут присоединяться
либо к отдельным словоформам, либо ко всем словоформам данной парадигмы.
Словарь хранит еще информацию об ударениях. Однако очевидно, что данная схема
не предназначена для хранения полного морфологического разбора слова, устройства
компаундов и т.д. <o:p></o:p></span></p>

<p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'><span
style='mso-tab-count:1'>            </span>Необходимо еще отметить, что в С++
реализации не используется реляционной базы данных, однако на этапе
редактирования словаря С++ структуры фактически полностью повторяют
вышеописанную схему.<span style="mso-spacerun: yes">  </span><o:p></o:p></span></p>

<p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'><span
style='mso-tab-count:1'>            </span>В конце этого раздела мы дадим
основные характеристики словарей текущей версии:</span></p>

<table border=1 cellspacing=0 cellpadding=0 style='border-collapse:collapse;
 border:none;mso-border-alt:solid windowtext .5pt;mso-padding-alt:0cm 3.5pt 0cm 3.5pt'>
 <tr>
  <td width=125 valign=top style='width:93.95pt;border:solid windowtext .5pt;
  padding:0cm 3.5pt 0cm 3.5pt'>
  <p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'>Язык<o:p></o:p></span></p>
  </td>
  <td width=125 valign=top style='width:93.95pt;border:solid windowtext .5pt;
  border-left:none;mso-border-left-alt:solid windowtext .5pt;padding:0cm 3.5pt 0cm 3.5pt'>
  <p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'>Кол-во лемм<o:p></o:p></span></p>
  </td>
  <td width=210 valign=top style='width:157.6pt;border:solid windowtext .5pt;
  border-left:none;mso-border-left-alt:solid windowtext .5pt;padding:0cm 3.5pt 0cm 3.5pt'>
  <p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'>Кол-во наборов
  окончаний<o:p></o:p></span></p>
  </td>
 </tr>
 <tr>
  <td width=125 valign=top style='width:93.95pt;border:solid windowtext .5pt;
  border-top:none;mso-border-top-alt:solid windowtext .5pt;padding:0cm 3.5pt 0cm 3.5pt'>
  <p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'>Русский<a
  style='mso-footnote-id:ftn1' href="#_ftn1" name="_ftnref1" title=""><span
  class=MsoFootnoteReference><span style='mso-special-character:footnote'><![if !supportFootnotes]>[1]<![endif]></span></span></a><o:p></o:p></span></p>
  </td>
  <td width=125 valign=top style='width:93.95pt;border-top:none;border-left:
  none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0cm 3.5pt 0cm 3.5pt'>
  <p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'>162519<o:p></o:p></span></p>
  </td>
  <td width=210 valign=top style='width:157.6pt;border-top:none;border-left:
  none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0cm 3.5pt 0cm 3.5pt'>
  <p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'>2553<o:p></o:p></span></p>
  </td>
 </tr>
 <tr>
  <td width=125 valign=top style='width:93.95pt;border:solid windowtext .5pt;
  border-top:none;mso-border-top-alt:solid windowtext .5pt;padding:0cm 3.5pt 0cm 3.5pt'>
  <p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'>Немецкий<a
  style='mso-footnote-id:ftn2' href="#_ftn2" name="_ftnref2" title=""><span
  class=MsoFootnoteReference><span style='mso-special-character:footnote'><![if !supportFootnotes]>[2]<![endif]></span></span></a><o:p></o:p></span></p>
  </td>
  <td width=125 valign=top style='width:93.95pt;border-top:none;border-left:
  none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0cm 3.5pt 0cm 3.5pt'>
  <p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'>212560<o:p></o:p></span></p>
  </td>
  <td width=210 valign=top style='width:157.6pt;border-top:none;border-left:
  none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0cm 3.5pt 0cm 3.5pt'>
  <p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'>1171<o:p></o:p></span></p>
  </td>
 </tr>
 <tr>
  <td width=125 valign=top style='width:93.95pt;border:solid windowtext .5pt;
  border-top:none;mso-border-top-alt:solid windowtext .5pt;padding:0cm 3.5pt 0cm 3.5pt'>
  <p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'>Английский<a
  style='mso-footnote-id:ftn3' href="#_ftn3" name="_ftnref3" title=""><span
  class=MsoFootnoteReference><span style='mso-special-character:footnote'><![if !supportFootnotes]>[3]<![endif]></span></span></a><o:p></o:p></span></p>
  </td>
  <td width=125 valign=top style='width:93.95pt;border-top:none;border-left:
  none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0cm 3.5pt 0cm 3.5pt'>
  <p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'>104657<o:p></o:p></span></p>
  </td>
  <td width=210 valign=top style='width:157.6pt;border-top:none;border-left:
  none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0cm 3.5pt 0cm 3.5pt'>
  <p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'>442<o:p></o:p></span></p>
  </td>
 </tr>
</table>

<p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

<p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

<h2><span lang=RU><span style='mso-tab-count:1'>         </span>Оболочка
редактирования словаря</span></h2>

<p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

<p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'><span
style='mso-tab-count:1'>            </span>Морфологический словарь в текущей
версии может существовать в двух вариантах: <o:p></o:p></span></p>

<p class=MsoNormal style='margin-left:82.65pt;text-indent:-47.25pt;mso-list:
l2 level1 lfo15;tab-stops:list 82.65pt'><![if !supportLists]><span lang=RU
style='mso-ansi-language:RU'>1.<span style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
</span></span><![endif]><span lang=RU style='mso-ansi-language:RU'>Вариант,
предназначенный для редактирования,<span style="mso-spacerun: yes"> 
</span>который следует реляционной схеме, указанной выше<o:p></o:p></span></p>

<p class=MsoNormal style='margin-left:82.65pt;text-indent:-47.25pt;mso-list:
l2 level1 lfo15;tab-stops:list 82.65pt'><![if !supportLists]><span lang=RU
style='mso-ansi-language:RU'>2.<span style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
</span></span><![endif]><span lang=RU style='mso-ansi-language:RU'>«Бинарный»
вариант,<span style="mso-spacerun: yes">  </span>предназначенный для обработки
текста, построенные на конечном автомате.<o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:27.0pt'><span lang=RU style='mso-ansi-language:
RU'>Оболочка для редактирования (</span>MorphWizard<span lang=RU
style='mso-ansi-language:RU'>) использует первый вариант<span
style="mso-spacerun: yes">  </span>словаря. Основными функциями оболочки
являются:</span></p>

<p class=MsoNormal style='margin-left:45.0pt;text-indent:-18.0pt;mso-list:l1 level1 lfo16;
tab-stops:list 45.0pt'><![if !supportLists]><span lang=RU style='mso-ansi-language:
RU'>1.<span style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
</span></span><![endif]><span lang=RU style='mso-ansi-language:RU'>Поиск в
словаре по лемме, словоформе, морфологической интерпретации.<o:p></o:p></span></p>

<p class=MsoNormal style='margin-left:45.0pt;text-indent:-18.0pt;mso-list:l1 level1 lfo16;
tab-stops:list 45.0pt'><![if !supportLists]><span lang=RU style='mso-ansi-language:
RU'>2.<span style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
</span></span><![endif]><span lang=RU style='mso-ansi-language:RU'>Редактирование
одной парадигмы слова в т.н. </span>slf<span lang=RU style='mso-ansi-language:
RU'>-формате.<o:p></o:p></span></p>

<p class=MsoNormal style='margin-left:45.0pt;text-indent:-18.0pt;mso-list:l1 level1 lfo16;
tab-stops:list 45.0pt'><![if !supportLists]><span lang=RU style='mso-ansi-language:
RU'>3.<span style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
</span></span><![endif]><span lang=RU style='mso-ansi-language:RU'>Добавление
нового слова, используя предсказание по «лемме»; удаление слова.<o:p></o:p></span></p>

<p class=MsoNormal style='margin-left:45.0pt;text-indent:-18.0pt;mso-list:l1 level1 lfo16;
tab-stops:list 45.0pt'><![if !supportLists]><span lang=RU style='mso-ansi-language:
RU'>4.<span style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
</span></span><![endif]><span lang=RU style='mso-ansi-language:RU'>Сравнение
двух наборов окончаний, приписывание набора окончаний целому множеству лемм.<o:p></o:p></span></p>

<p class=MsoNormal style='margin-left:45.0pt;text-indent:-18.0pt;mso-list:l1 level1 lfo16;
tab-stops:list 45.0pt'><![if !supportLists]><span lang=RU style='mso-ansi-language:
RU'>5.<span style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
</span></span><![endif]><span lang=RU style='mso-ansi-language:RU'>Экспорт в
текстовый файл<span style="mso-spacerun: yes">  </span>и импорт из текстового
файла(в </span>slf<span lang=RU style='mso-ansi-language:RU'>-формате).<o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:35.4pt'><span lang=RU style='mso-ansi-language:
RU'>Поиск по лемме, словоформе и морфологической интерпретации осуществляется с
использованием таблицы </span>Lemmata<span lang=RU style='mso-ansi-language:
RU'> и </span>MorphModels<span lang=RU style='mso-ansi-language:RU'> (см.
выше).<span style="mso-spacerun: yes">   </span>Здесь, кроме простого поиска,
пользователю предоставлена возможность использования регулярных выражений,
например, поиск по словоформе /^при.*ять$/ найдет все слова,<span
style="mso-spacerun: yes">  </span>в которых есть словоформы, которые
начинаются с приставки «при» и заканчиваются на «ять».<o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:35.4pt'><span lang=RU style='mso-ansi-language:
RU'>Редактирование одной парадигмы осуществляется в окне текстового редактора.
Парадигма представлена в т.н. </span>slf<span lang=RU style='mso-ansi-language:
RU'>-формате, т.е. следующим образом. На каждой строке сначала стоит
словоформа, а<span style="mso-spacerun: yes">  </span>справа от словоформы
стоят морфологические характеристики.<span style="mso-spacerun: yes"> 
</span>Например,<o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:35.4pt'><b><span lang=RU
style='font-size:10.0pt;color:black;mso-ansi-language:RU'>ма’ма<span
style="mso-spacerun: yes">                               </span></span></b><span
lang=RU style='font-size:10.0pt;color:red;mso-ansi-language:RU'>С</span><b><span
lang=RU style='font-size:10.0pt;color:black;mso-ansi-language:RU'> </span></b><span
lang=RU style='font-size:10.0pt;color:blue;mso-ansi-language:RU'>жр</span><b><span
lang=RU style='font-size:10.0pt;color:black;mso-ansi-language:RU'>,</span></b><span
lang=RU style='font-size:10.0pt;color:blue;mso-ansi-language:RU'>ед</span><b><span
lang=RU style='font-size:10.0pt;color:black;mso-ansi-language:RU'>,</span></b><span
lang=RU style='font-size:10.0pt;color:blue;mso-ansi-language:RU'>им</span><b><span
lang=RU style='font-size:10.0pt;color:black;mso-ansi-language:RU'>,</span></b><span
lang=RU style='font-size:10.0pt;color:blue;mso-ansi-language:RU'>од</span><b><span
lang=RU style='font-size:10.0pt;color:black;mso-ansi-language:RU'>,<o:p></o:p></span></b></p>

<p class=MsoNormal style='text-indent:35.4pt;mso-layout-grid-align:none;
text-autospace:none'><b><span lang=RU style='font-size:10.0pt;color:black;
mso-ansi-language:RU'>ма’мы<span style="mso-spacerun:
yes">                               </span></span></b><span lang=RU
style='font-size:10.0pt;color:red;mso-ansi-language:RU'>С</span><b><span
lang=RU style='font-size:10.0pt;color:black;mso-ansi-language:RU'> </span></b><span
lang=RU style='font-size:10.0pt;color:blue;mso-ansi-language:RU'>жр</span><b><span
lang=RU style='font-size:10.0pt;color:black;mso-ansi-language:RU'>,</span></b><span
lang=RU style='font-size:10.0pt;color:blue;mso-ansi-language:RU'>ед</span><b><span
lang=RU style='font-size:10.0pt;color:black;mso-ansi-language:RU'>,</span></b><span
lang=RU style='font-size:10.0pt;color:blue;mso-ansi-language:RU'>рд</span><b><span
lang=RU style='font-size:10.0pt;color:black;mso-ansi-language:RU'>,</span></b><span
lang=RU style='font-size:10.0pt;color:blue;mso-ansi-language:RU'>од</span><b><span
lang=RU style='font-size:10.0pt;color:black;mso-ansi-language:RU'>,<o:p></o:p></span></b></p>

<p class=MsoNormal style='text-indent:35.4pt'><span lang=RU style='mso-ansi-language:
RU'>....<o:p></o:p></span></p>

<p class=MsoNormal style='mso-layout-grid-align:none;text-autospace:none'><span
lang=RU style='mso-ansi-language:RU'><span style='mso-tab-count:1'>            </span>Словоформа
в первой строке объявляется леммой слова.<span style="mso-spacerun: yes"> 
</span>Если у словоформы есть приставка, она должна быть отделена специальным
символом “|“, например:<o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:35.4pt;mso-layout-grid-align:none;
text-autospace:none'><b><span lang=RU style='font-size:10.0pt;color:black;
mso-ansi-language:RU'>ра’нний<span style="mso-spacerun:
yes">                            </span></span></b><span lang=RU
style='font-size:10.0pt;color:red;mso-ansi-language:RU'>П</span><b><span
lang=RU style='font-size:10.0pt;color:black;mso-ansi-language:RU'> </span></b><span
lang=RU style='font-size:10.0pt;color:blue;mso-ansi-language:RU'>мр</span><b><span
lang=RU style='font-size:10.0pt;color:black;mso-ansi-language:RU'>,</span></b><span
lang=RU style='font-size:10.0pt;color:blue;mso-ansi-language:RU'>ед</span><b><span
lang=RU style='font-size:10.0pt;color:black;mso-ansi-language:RU'>,</span></b><span
lang=RU style='font-size:10.0pt;color:blue;mso-ansi-language:RU'>им</span><b><span
lang=RU style='font-size:10.0pt;color:black;mso-ansi-language:RU'>,</span></b><span
lang=RU style='font-size:10.0pt;color:blue;mso-ansi-language:RU'>од</span><b><span
lang=RU style='font-size:10.0pt;color:black;mso-ansi-language:RU'>,</span></b><span
lang=RU style='font-size:10.0pt;color:blue;mso-ansi-language:RU'>но</span><b><span
lang=RU style='font-size:10.0pt;color:black;mso-ansi-language:RU'>,<o:p></o:p></span></b></p>

<p class=MsoNormal style='text-indent:35.4pt;mso-layout-grid-align:none;
text-autospace:none'><b><span lang=RU style='font-size:10.0pt;color:black;
mso-ansi-language:RU'>по|ра’ньше<span style="mso-spacerun:
yes">                         </span></span></b><span lang=RU style='font-size:
10.0pt;color:red;mso-ansi-language:RU'>П</span><b><span lang=RU
style='font-size:10.0pt;color:black;mso-ansi-language:RU'> </span></b><span
lang=RU style='font-size:10.0pt;color:blue;mso-ansi-language:RU'>од</span><b><span
lang=RU style='font-size:10.0pt;color:black;mso-ansi-language:RU'>,</span></b><span
lang=RU style='font-size:10.0pt;color:blue;mso-ansi-language:RU'>но</span><b><span
lang=RU style='font-size:10.0pt;color:black;mso-ansi-language:RU'>,</span></b><span
lang=RU style='font-size:10.0pt;color:blue;mso-ansi-language:RU'>сравн</span><b><span
lang=RU style='font-size:10.0pt;color:black;mso-ansi-language:RU'>,<o:p></o:p></span></b></p>

<p class=MsoNormal style='text-indent:35.4pt;mso-layout-grid-align:none;
text-autospace:none'><span lang=RU style='mso-bidi-font-size:10.0pt;color:black;
mso-ansi-language:RU'>Ударение ставится с помощью апострофа. Основа парадигмы –
это неизменяемая левая часть всех словоформ, если отбросить возможные приставки
словоформ. <o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:35.4pt;mso-layout-grid-align:none;
text-autospace:none'><span lang=RU style='mso-bidi-font-size:10.0pt;color:black;
mso-ansi-language:RU'>Добавление нового слова может быть осуществлено по
крайней мере тремя способами: <o:p></o:p></span></p>

<p class=MsoNormal style='margin-left:53.4pt;text-indent:-18.0pt;mso-list:l17 level1 lfo17;
tab-stops:list 53.4pt;mso-layout-grid-align:none;text-autospace:none'><![if !supportLists]><span
lang=RU style='mso-bidi-font-size:10.0pt;color:black;mso-ansi-language:RU'>1.<span
style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; </span></span><![endif]><span
lang=RU style='mso-bidi-font-size:10.0pt;color:black;mso-ansi-language:RU'>Написание
с нуля в окне редактирования;<o:p></o:p></span></p>

<p class=MsoNormal style='margin-left:53.4pt;text-indent:-18.0pt;mso-list:l17 level1 lfo17;
tab-stops:list 53.4pt;mso-layout-grid-align:none;text-autospace:none'><![if !supportLists]><span
lang=RU style='mso-bidi-font-size:10.0pt;color:black;mso-ansi-language:RU'>2.<span
style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; </span></span><![endif]><span
lang=RU style='mso-bidi-font-size:10.0pt;color:black;mso-ansi-language:RU'>Выбор
для новой леммы набора окончаний, по уже существующей лемме, указанной
пользователем;<o:p></o:p></span></p>

<p class=MsoNormal style='margin-left:53.4pt;text-indent:-18.0pt;mso-list:l17 level1 lfo17;
tab-stops:list 53.4pt;mso-layout-grid-align:none;text-autospace:none'><![if !supportLists]><span
lang=RU style='mso-bidi-font-size:10.0pt;color:black;mso-ansi-language:RU'>3.<span
style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; </span></span><![endif]><span
lang=RU style='mso-bidi-font-size:10.0pt;color:black;mso-ansi-language:RU'>Использование
предсказание по «лемме».<o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:35.4pt;mso-layout-grid-align:none;
text-autospace:none'><span lang=RU style='mso-bidi-font-size:10.0pt;color:black;
mso-ansi-language:RU'>Первый способ применяется, когда надо ввести абсолютно
новую парадигму слова.<span style="mso-spacerun: yes">  </span>Второй -<span
style="mso-spacerun: yes">  </span>если пользователь уверен, что новая лемма,
склоняется так же, как другая уже существующая ему знакомая лемма.<span
style="mso-spacerun: yes">  </span>Третий, когда пользователь хочет выбрать
подходящий вариант из возможных наиболее частотных наборов окончаний.<span
style="mso-spacerun: yes">  </span>Тогда пользователь вводит лемму и получает
по окончанию введенной леммы возможные наборы окончаний, представленные
существующими леммами. Результаты можно отсортировать по частоте или
морфологической интерпретации.<o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:35.4pt;mso-layout-grid-align:none;
text-autospace:none'><span lang=RU style='mso-bidi-font-size:10.0pt;color:black;
mso-ansi-language:RU'>Часть парадигм или весь словарь можно вывести в текстовый
файл, где для каждой леммы даются вся информация и сама парадигма в </span><span
style='mso-bidi-font-size:10.0pt;color:black'>slf</span><span lang=RU
style='mso-bidi-font-size:10.0pt;color:black;mso-ansi-language:RU'>-формате.
Возможен так же импорт из текстового файла.<o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:35.4pt;mso-layout-grid-align:none;
text-autospace:none'><span lang=RU style='mso-bidi-font-size:10.0pt;color:black;
mso-ansi-language:RU'>Данная оболочка написана на </span><span
style='mso-bidi-font-size:10.0pt;color:black'>C</span><span lang=RU
style='mso-bidi-font-size:10.0pt;color:black;mso-ansi-language:RU'>++ под </span><span
style='mso-bidi-font-size:10.0pt;color:black'>Windows</span><span lang=RU
style='mso-bidi-font-size:10.0pt;color:black;mso-ansi-language:RU'> и много раз
менялась. Программисты (во временной последовательности): К. Серебряный(2000),
С. Григорьев(2001), А. Сокирко(2002), Н. Кецарис(2003).<o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:35.4pt;mso-layout-grid-align:none;
text-autospace:none'><span lang=RU style='mso-bidi-font-size:10.0pt;color:black;
mso-ansi-language:RU'><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:35.4pt;mso-layout-grid-align:none;
text-autospace:none'><span lang=RU style='mso-bidi-font-size:10.0pt;color:black;
mso-ansi-language:RU'><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

<h2><span lang=RU>Бинарное представление словаря</span></h2>

<p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:27.0pt'><span lang=RU style='mso-ansi-language:
RU'><span style='mso-tab-count:1'>   </span>Словарь в бинарном формате
предоставляет следующие функции:<o:p></o:p></span></p>

<p class=MsoNormal style='margin-left:27.0pt;text-indent:0cm;mso-list:l18 level1 lfo18;
tab-stops:list -9.0pt'><![if !supportLists]><span lang=RU style='mso-ansi-language:
RU'>1.<span style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
</span></span><![endif]><span lang=RU style='mso-ansi-language:RU'>Морфологический<span
style="mso-spacerun: yes">  </span>анализ: получение по словоформе леммы, ее
свойств, уникального </span>ID<span lang=RU style='mso-ansi-language:RU'>
леммы, морфологических характеристик входной словоформы.<o:p></o:p></span></p>

<p class=MsoNormal style='margin-left:27.0pt;text-indent:0cm;mso-list:l18 level1 lfo18;
tab-stops:list -9.0pt'><![if !supportLists]><span lang=RU style='mso-ansi-language:
RU'>2.<span style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
</span></span><![endif]><span lang=RU style='mso-ansi-language:RU'>Морфологический
синтез: получение по уникальному </span>ID<span lang=RU style='mso-ansi-language:
RU'> леммы всей парадигмы слова со всеми словоформами и их морф. характеристиками.<o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:27.0pt'><span lang=RU style='mso-ansi-language:
RU'>Важно, что бинарное представление словаря оптимизировано прежде всего для
проведения морфологического анализа.<span style="mso-spacerun: yes"> 
</span>Основу этого представления составляет конечный<span style="mso-spacerun:
yes">  </span>автомат (аксептор) (см., например [1]). Автомат детерминирован и
не имеет циклов, что позволяет минимизировать его в процессе построения, как
это предложено <br>
в [2]. <o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:27.0pt'><span lang=RU style='mso-ansi-language:
RU'>Основной цикл построения автомата выглядит так:<o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:27.0pt'><span lang=RU style='mso-ansi-language:
RU'><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:27.0pt'><span lang=RU style='mso-ansi-language:
RU'><span style='mso-tab-count:1'>   </span></span><i><span lang=EN-US
style='mso-ansi-language:EN-US'>For all<span style="mso-spacerun: yes"> 
</span>word forms W <o:p></o:p></span></i></p>

<p class=MsoNormal style='text-indent:27.0pt'><i><span lang=EN-US
style='mso-ansi-language:EN-US'><span style='mso-tab-count:1'>   </span>begin<o:p></o:p></span></i></p>

<p class=MsoNormal style='text-indent:27.0pt'><i><span lang=EN-US
style='mso-ansi-language:EN-US'><span style='mso-tab-count:2'>               </span>AddStringToAutomat
(W +‘|’+Annot (W) );<o:p></o:p></span></i></p>

<p class=MsoNormal style='text-indent:35.4pt'><i><span lang=EN-US
style='mso-ansi-language:EN-US'>End</span></i><i><span lang=RU
style='mso-ansi-language:RU'><o:p></o:p></span></i></p>

<p class=MsoNormal style='text-indent:35.4pt'><span lang=RU style='mso-ansi-language:
RU'><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:27.0pt'><span lang=RU style='mso-ansi-language:
RU'>Символ ‘|’(</span>annotation<span style='mso-ansi-language:RU'> </span>char<span
lang=RU style='mso-ansi-language:RU'>) – специальный разделительный символ,
которого нет в алфавите словаря, т.е. он не может встречаться в словоформе </span>W<span
lang=RU style='mso-ansi-language:RU'> . Функция </span><span lang=EN-US
style='mso-ansi-language:EN-US'>Annot</span><span lang=RU style='mso-ansi-language:
RU'>(</span><span lang=EN-US style='mso-ansi-language:EN-US'>W</span><span
lang=RU style='mso-ansi-language:RU'>) выдает строку аннотации словоформы </span>W<span
lang=RU style='mso-ansi-language:RU'> в любом текстовом виде, например так: </span><span
lang=RU style='font-size:10.0pt;color:red;mso-ansi-language:RU'>С</span><b><span
lang=RU style='font-size:10.0pt;color:black;mso-ansi-language:RU'> </span></b><span
lang=RU style='font-size:10.0pt;color:blue;mso-ansi-language:RU'>жр</span><b><span
lang=RU style='font-size:10.0pt;color:black;mso-ansi-language:RU'>,</span></b><span
lang=RU style='font-size:10.0pt;color:blue;mso-ansi-language:RU'>ед</span><b><span
lang=RU style='font-size:10.0pt;color:black;mso-ansi-language:RU'>,</span></b><span
lang=RU style='font-size:10.0pt;color:blue;mso-ansi-language:RU'>им</span><b><span
lang=RU style='font-size:10.0pt;color:black;mso-ansi-language:RU'>,</span></b><span
lang=RU style='font-size:10.0pt;color:blue;mso-ansi-language:RU'>од</span><b><span
lang=RU style='font-size:10.0pt;color:black;mso-ansi-language:RU'>. </span></b><span
lang=RU style='mso-bidi-font-size:10.0pt;color:black;mso-ansi-language:RU'>Т.е,<span
style="mso-spacerun: yes">  </span>например, для словоформы «мама» в автомат
может быть добавлена строка <o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:27.0pt'><span lang=RU style='mso-bidi-font-size:
10.0pt;color:black;mso-ansi-language:RU'>мама|</span><span lang=RU
style='font-size:10.0pt;color:red;mso-ansi-language:RU'>С</span><b><span
lang=RU style='font-size:10.0pt;color:black;mso-ansi-language:RU'> </span></b><span
lang=RU style='font-size:10.0pt;color:blue;mso-ansi-language:RU'>жр</span><b><span
lang=RU style='font-size:10.0pt;color:black;mso-ansi-language:RU'>,</span></b><span
lang=RU style='font-size:10.0pt;color:blue;mso-ansi-language:RU'>ед</span><b><span
lang=RU style='font-size:10.0pt;color:black;mso-ansi-language:RU'>,</span></b><span
lang=RU style='font-size:10.0pt;color:blue;mso-ansi-language:RU'>им</span><b><span
lang=RU style='font-size:10.0pt;color:black;mso-ansi-language:RU'>,</span></b><span
lang=RU style='font-size:10.0pt;color:blue;mso-ansi-language:RU'>од.<o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:27.0pt'><span lang=RU style='mso-bidi-font-size:
10.0pt;color:black;mso-ansi-language:RU'>Функция </span><span lang=EN-US
style='mso-ansi-language:EN-US'>AddStringToAutomat</span><span lang=RU
style='mso-ansi-language:RU'> добавляет входную строку в автомат, сохраняя
свойство минимальности и детерминированности автомата (см. [2]).<o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:27.0pt'><span lang=RU style='mso-ansi-language:
RU'>Поиск словоформы в таком автомате происходит за линейное от длины входной
словоформы время: достаточно просто пройти все состояния автомата, которые
соответствуют символам входной словоформы, далее пройти разделительный символ и
получить обходом по графу все аннотации словоформы.<o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:27.0pt'><span lang=RU style='mso-ansi-language:
RU'>Основная проблема заключается в содержании аннотации. Проще всего было бы
положить в аннотацию уникальный номер(</span>ID<span lang=RU style='mso-ansi-language:
RU'>) леммы и номер словоформы в парадигме слова. Этой информации достаточно,
чтобы вычислить всю остальную необходимую информацию за константное время. Но
тогда в автомате сильно вырастет кол-во состояний и связей, однако не столь
фатально, чтобы<span style="mso-spacerun: yes">  </span>не делать этого, если скорость
обработки очень важна.<span style="mso-spacerun: yes">  </span>Если, например,
автомат должен выдавать только лемму, то надо включить в аннотацию длину
окончания входной словоформы и окончание леммы, которое надо добавить справа к
основе. В таком автомате число состояний будет невелико, и лемму он будет
выдавать максимально быстро. В любом случае, содержание аннотации может
зависеть от поставленной задачи и заданных параметров.<span
style="mso-spacerun: yes">  </span>В текущей версии в аннотации хранятся<span
style="mso-spacerun: yes">  </span>три числа: номер набора окончаний, номер
словоформы в парадигме, номер префикса леммы. Эта аннотация позволяет за
константное время вычислить лемму и морфологические свойства входной
словоформы, но, например, для получения информации об ударении, нужен
дополнительный бинарный поиск в числовом векторе.<o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:27.0pt'><span lang=RU style='mso-ansi-language:
RU'>Ниже приведены скоростные характеристики программы, порождающей <span
style="mso-spacerun: yes"> </span>бинарное представление</span><a
style='mso-footnote-id:ftn4' href="#_ftn4" name="_ftnref4" title=""><span
class=MsoFootnoteReference><span style='mso-special-character:footnote'><![if !supportFootnotes]>[4]<![endif]></span></span></a><span
lang=RU style='mso-ansi-language:RU'>:<o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:27.0pt'><span lang=RU style='mso-ansi-language:
RU'><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

<table border=1 cellspacing=0 cellpadding=0 style='border-collapse:collapse;
 border:none;mso-border-alt:solid windowtext .5pt;mso-padding-alt:0cm 3.5pt 0cm 3.5pt'>
 <tr style='mso-row-margin-right:331.3pt'>
  <td width=185 colspan=2 valign=top style='width:138.5pt;border:solid windowtext .5pt;
  padding:0cm 3.5pt 0cm 3.5pt'>
  <p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'>Порождение
  автомата<o:p></o:p></span></p>
  <p class=MsoNormal><![if !supportEmptyParas]>&nbsp;<![endif]><span lang=RU
  style='mso-ansi-language:RU'><o:p></o:p></span></p>
  </td>
  <td style='mso-cell-special:placeholder;border:none;border-bottom:solid windowtext .5pt;
  padding:0cm 0cm 0cm 0cm' width=442 colspan=4><p class='MsoNormal'>&nbsp;</td>
 </tr>
 <tr>
  <td width=101 valign=top style='width:75.5pt;border:solid windowtext .5pt;
  border-top:none;mso-border-top-alt:solid windowtext .5pt;padding:0cm 3.5pt 0cm 3.5pt'>
  <p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'>Язык<o:p></o:p></span></p>
  </td>
  <td width=84 valign=top style='width:63.0pt;border-top:none;border-left:none;
  border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0cm 3.5pt 0cm 3.5pt'>
  <p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'>Кол-во
  состояний автомата<o:p></o:p></span></p>
  </td>
  <td width=96 valign=top style='width:72.0pt;border-top:none;border-left:none;
  border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0cm 3.5pt 0cm 3.5pt'>
  <p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'>Кол-во
  переходов автомата<o:p></o:p></span></p>
  </td>
  <td width=96 valign=top style='width:72.0pt;border-top:none;border-left:none;
  border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0cm 3.5pt 0cm 3.5pt'>
  <p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'>Время
  порождения<o:p></o:p></span></p>
  </td>
  <td width=72 valign=top style='width:54.0pt;border-top:none;border-left:none;
  border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0cm 3.5pt 0cm 3.5pt'>
  <p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'>Размер автомата
  <o:p></o:p></span></p>
  </td>
  <td width=178 valign=top style='width:133.3pt;border-top:none;border-left:
  none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0cm 3.5pt 0cm 3.5pt'>
  <p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'>Размер автомата
  и всей остальной морф. инф.<o:p></o:p></span></p>
  </td>
 </tr>
 <tr>
  <td width=101 valign=top style='width:75.5pt;border:solid windowtext .5pt;
  border-top:none;mso-border-top-alt:solid windowtext .5pt;padding:0cm 3.5pt 0cm 3.5pt'>
  <p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'>Русский<o:p></o:p></span></p>
  </td>
  <td width=84 valign=top style='width:63.0pt;border-top:none;border-left:none;
  border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0cm 3.5pt 0cm 3.5pt'>
  <p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'>392443<o:p></o:p></span></p>
  </td>
  <td width=96 valign=top style='width:72.0pt;border-top:none;border-left:none;
  border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0cm 3.5pt 0cm 3.5pt'>
  <p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'>815071<o:p></o:p></span></p>
  </td>
  <td width=96 valign=top style='width:72.0pt;border-top:none;border-left:none;
  border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0cm 3.5pt 0cm 3.5pt'>
  <p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'>62 сек.<o:p></o:p></span></p>
  </td>
  <td width=72 valign=top style='width:54.0pt;border-top:none;border-left:none;
  border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0cm 3.5pt 0cm 3.5pt'>
  <p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'>4,7 Мб<o:p></o:p></span></p>
  </td>
  <td width=178 valign=top style='width:133.3pt;border-top:none;border-left:
  none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0cm 3.5pt 0cm 3.5pt'>
  <p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'>9 Мб<o:p></o:p></span></p>
  </td>
 </tr>
 <tr>
  <td width=101 valign=top style='width:75.5pt;border:solid windowtext .5pt;
  border-top:none;mso-border-top-alt:solid windowtext .5pt;padding:0cm 3.5pt 0cm 3.5pt'>
  <p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'>Немецкий<o:p></o:p></span></p>
  </td>
  <td width=84 valign=top style='width:63.0pt;border-top:none;border-left:none;
  border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0cm 3.5pt 0cm 3.5pt'>
  <p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'>335069<o:p></o:p></span></p>
  </td>
  <td width=96 valign=top style='width:72.0pt;border-top:none;border-left:none;
  border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0cm 3.5pt 0cm 3.5pt'>
  <p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'>598395<o:p></o:p></span></p>
  </td>
  <td width=96 valign=top style='width:72.0pt;border-top:none;border-left:none;
  border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0cm 3.5pt 0cm 3.5pt'>
  <p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'>26 сек<o:p></o:p></span></p>
  </td>
  <td width=72 valign=top style='width:54.0pt;border-top:none;border-left:none;
  border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0cm 3.5pt 0cm 3.5pt'>
  <p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'>3,6 Мб<o:p></o:p></span></p>
  </td>
  <td width=178 valign=top style='width:133.3pt;border-top:none;border-left:
  none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0cm 3.5pt 0cm 3.5pt'>
  <p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'>9 Мб<o:p></o:p></span></p>
  </td>
 </tr>
 <tr>
  <td width=101 valign=top style='width:75.5pt;border:solid windowtext .5pt;
  border-top:none;mso-border-top-alt:solid windowtext .5pt;padding:0cm 3.5pt 0cm 3.5pt'>
  <p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'>Английский<o:p></o:p></span></p>
  </td>
  <td width=84 valign=top style='width:63.0pt;border-top:none;border-left:none;
  border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0cm 3.5pt 0cm 3.5pt'>
  <p class=MsoNormal><span lang=EN-US style='mso-ansi-language:EN-US'>79102<o:p></o:p></span></p>
  </td>
  <td width=96 valign=top style='width:72.0pt;border-top:none;border-left:none;
  border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0cm 3.5pt 0cm 3.5pt'>
  <p class=MsoNormal><span lang=EN-US style='mso-ansi-language:EN-US'>179394<o:p></o:p></span></p>
  </td>
  <td width=96 valign=top style='width:72.0pt;border-top:none;border-left:none;
  border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0cm 3.5pt 0cm 3.5pt'>
  <p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'>5</span><span
  lang=RU style='mso-ansi-language:EN-US'> </span><span lang=RU
  style='mso-ansi-language:RU'>сек</span><span lang=EN-US style='mso-ansi-language:
  EN-US'><o:p></o:p></span></p>
  </td>
  <td width=72 valign=top style='width:54.0pt;border-top:none;border-left:none;
  border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0cm 3.5pt 0cm 3.5pt'>
  <p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'>1 Мб<o:p></o:p></span></p>
  </td>
  <td width=178 valign=top style='width:133.3pt;border-top:none;border-left:
  none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0cm 3.5pt 0cm 3.5pt'>
  <p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'>3 Мб<o:p></o:p></span></p>
  </td>
 </tr>
</table>

<p class=MsoNormal style='text-indent:27.0pt'><span lang=RU style='mso-ansi-language:
RU'><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:27.0pt'><span lang=RU style='mso-ansi-language:
RU'>Размер<span style="mso-spacerun: yes">  </span>автомата и время его
порождения прежде всего зависит от содержания аннотации.<span
style="mso-spacerun: yes">  </span>Например, автомат для русского языка, который
может распознавать только лемму, будет содержать вдвое<span
style="mso-spacerun: yes">   </span>меньше число состояний и в два раза быстрее
порождаться.<o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:27.0pt'><span lang=RU style='mso-ansi-language:
RU'>Ниже приведены скоростные характеристики самого морфологического анализа:<o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:27.0pt'><span lang=RU style='mso-ansi-language:
RU'><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

<table border=1 cellspacing=0 cellpadding=0 style='border-collapse:collapse;
 border:none;mso-border-alt:solid windowtext .5pt;mso-padding-alt:0cm 3.5pt 0cm 3.5pt'>
 <tr style='mso-row-margin-right:211.6pt'>
  <td width=251 colspan=2 valign=top style='width:187.9pt;border:solid windowtext .5pt;
  padding:0cm 3.5pt 0cm 3.5pt'>
  <p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'>Скорость
  автомата<o:p></o:p></span></p>
  </td>
  <td style='mso-cell-special:placeholder;border:none;border-bottom:solid windowtext .5pt;
  padding:0cm 0cm 0cm 0cm' width=282 colspan=2><p class='MsoNormal'>&nbsp;</td>
 </tr>
 <tr>
  <td width=125 valign=top style='width:93.95pt;border:solid windowtext .5pt;
  border-top:none;mso-border-top-alt:solid windowtext .5pt;padding:0cm 3.5pt 0cm 3.5pt'>
  <p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'>Язык<o:p></o:p></span></p>
  </td>
  <td width=227 colspan=2 valign=top style='width:170.55pt;border-top:none;
  border-left:none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0cm 3.5pt 0cm 3.5pt'>
  <p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'>Выдача леммы и
  морф. интерпретации словоформы<o:p></o:p></span></p>
  </td>
  <td width=180 valign=top style='width:135.0pt;border-top:none;border-left:
  none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0cm 3.5pt 0cm 3.5pt'>
  <p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'>Выдача всей
  морф. информации<o:p></o:p></span></p>
  </td>
 </tr>
 <tr>
  <td width=125 valign=top style='width:93.95pt;border:solid windowtext .5pt;
  border-top:none;mso-border-top-alt:solid windowtext .5pt;padding:0cm 3.5pt 0cm 3.5pt'>
  <p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'>Русский<o:p></o:p></span></p>
  </td>
  <td width=227 colspan=2 valign=top style='width:170.55pt;border-top:none;
  border-left:none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0cm 3.5pt 0cm 3.5pt'>
  <p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'>360 тыс. слов в
  сек.<o:p></o:p></span></p>
  </td>
  <td width=180 valign=top style='width:135.0pt;border-top:none;border-left:
  none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0cm 3.5pt 0cm 3.5pt'>
  <p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'>202 тыс. слов в
  сек.<o:p></o:p></span></p>
  </td>
 </tr>
 <tr>
  <td width=125 valign=top style='width:93.95pt;border:solid windowtext .5pt;
  border-top:none;mso-border-top-alt:solid windowtext .5pt;padding:0cm 3.5pt 0cm 3.5pt'>
  <p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'>Немецкий<o:p></o:p></span></p>
  </td>
  <td width=227 colspan=2 valign=top style='width:170.55pt;border-top:none;
  border-left:none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0cm 3.5pt 0cm 3.5pt'>
  <p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'>340 тыс. слов в
  сек.<o:p></o:p></span></p>
  </td>
  <td width=180 valign=top style='width:135.0pt;border-top:none;border-left:
  none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0cm 3.5pt 0cm 3.5pt'>
  <p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'>196 тыс. слов в
  сек.<o:p></o:p></span></p>
  </td>
 </tr>
 <![if !supportMisalignedColumns]>
 <tr height=0>
  <td width=125 style='border:none'></td>
  <td width=125 style='border:none'></td>
  <td width=102 style='border:none'></td>
  <td width=180 style='border:none'></td>
 </tr>
 <![endif]>
</table>

<p class=MsoNormal style='text-indent:27.0pt'><span lang=RU style='mso-ansi-language:
RU'><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:27.0pt'><span lang=RU style='mso-ansi-language:
RU'>Первый столбец дает скорость, когда вся необходимая информация читается из
аннотаций, записанных в конечном автомате, второй столбец – это, когда мы должны
еще использовать аннотацию для получения дополнительной информации, например,
ударений.<span style="mso-spacerun: yes">  </span>Как уже сказано выше, в
принципе,<span style="mso-spacerun: yes">  </span>аннотацию можно построить
так, чтобы<span style="mso-spacerun: yes">  </span>вся информация искалась за
константное время.<o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:27.0pt'><span lang=RU style='mso-ansi-language:
RU'>Материал для тестирования был взят из библиотеки Мошкова(русский язык) и из
немецкого корпуса </span>DWDS<span lang=RU style='mso-ansi-language:RU'>[4].<o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:27.0pt'><span lang=RU style='mso-ansi-language:
RU'><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:27.0pt'><span lang=RU style='mso-ansi-language:
RU'><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

<h2><span lang=RU>Предсказание<span style="mso-spacerun: yes"> 
</span>ненайденных слов</span></h2>

<p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

<p class=MsoNormal><span style='mso-tab-count:1'>            </span><span
lang=RU style='mso-ansi-language:RU'>Морфологическое предсказание работает в
том случае, если слово не было найдено в словаре. Первым шагом предсказания
является попытка найти существующую словоформу языка, которая максимально
совпадала бы справа со входным словом. Если размер правой (неузнанной) части
слова не превышает определенного предела (в текущей версии это 5 символов), а
размер остатка (совпавший<span style="mso-spacerun: yes">  </span>с какой-то
словоформой) не меньше 4 символов, тогда слово предсказывается по найденному
правому остатку. Это должно работать для слов, к которым были добавлены
продуктивные префиксы, типа <i>квази</i>, <i>мета</i> и т.д. Поиск
осуществляется последовательным отсечением символов слева и подачей
«урезанного» слова в морфологический анализ.<o:p></o:p></span></p>

<p class=MsoNormal><span lang=RU style='mso-ansi-language:RU'><span
style='mso-tab-count:1'>            </span>Если слово нельзя найти таким
способом, вступает в действие предсказание по окончанию.<span
style="mso-spacerun: yes">  </span>Для этого был специально создан другой
конечный автомат, построенный на строках <span style="mso-spacerun:
yes"> </span>вида: <o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:35.4pt'>ReverseSuffix<span lang=RU
style='mso-ansi-language:RU'>(</span>X<span lang=RU style='mso-ansi-language:
RU'>)|</span>Annot<span lang=RU style='mso-ansi-language:RU'>(</span>X<span
lang=RU style='mso-ansi-language:RU'>), </span></p>

<p class=MsoNormal style='text-indent:35.4pt'><span lang=RU style='mso-ansi-language:
RU'>где </span>X<span lang=RU style='mso-ansi-language:RU'> какая-то словоформа
словаря,<span style="mso-spacerun: yes">  </span></span>Annot<span lang=RU
style='mso-ansi-language:RU'>(</span>X<span lang=RU style='mso-ansi-language:
RU'>) – аннотация словоформы </span>X<span lang=RU style='mso-ansi-language:
RU'>, функция </span><span lang=FR style='mso-ansi-language:FR'>ReverseSuffix</span><span
lang=RU style='mso-ansi-language:RU'>(Х) возвращает перевернутое слева направо
окончание словоформы Х некоторой заданной длины (в текущей версии – 5). Кроме
этого, в этот автомат попадают только те строки, для которых частота
встречаемости </span>ReverseSuffix<span lang=RU style='mso-ansi-language:RU'>(</span>X<span
lang=RU style='mso-ansi-language:RU'>)<span style="mso-spacerun: yes"> 
</span>в словаре превосходит некоторый<span style="mso-spacerun: yes"> 
</span>предел (в текущей версии – 3).<span style="mso-spacerun: yes"> 
</span>Числовые параметры конечного автомата предсказания могут быть заданы в
командной строке программы генерации словаря.<o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:35.4pt'><span lang=RU style='mso-ansi-language:
RU'>Есть еще одно важное ограничение автомата предсказания: т.н. факторизация
по части речи. Для каждого языка указаны те части<span style="mso-spacerun:
yes">  </span>речи, которые могут быть продуктивными. Для русского –
существительное, глагол, наречие и прилагательное.<span style="mso-spacerun:
yes">  </span>Если встречается окончание, для которого возможны разные<span
style="mso-spacerun: yes">   </span>интерпретации внутри одной продуктивной
части речи, тогда в автомат добавляется только та,<span style="mso-spacerun:
yes">  </span>что содержит набор окончаний, который наиболее частотен в<span
style="mso-spacerun: yes">  </span>словаре. Таким образом, в автомате для
каждого окончания и для каждой продуктивной части речи содержится только одна
морфологическая интерпретации, причем наиболее продуктивная.<o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:35.4pt'><span lang=RU style='mso-ansi-language:
RU'>Поиск в таком автомате осуществляется следующим образом.<span
style="mso-spacerun: yes">  </span>Идем с конца слова по автомату до тех пор,
пока существует состояние, в которое можно перейти, используя текущую букву
слова. Далее обходом графа собираем все достижимые аннотации.<span
style="mso-spacerun: yes">  </span><o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:35.4pt'><span lang=RU style='mso-ansi-language:
RU'>Если слово совпало не полностью с одним из окончаний, то возможно, что
список аннотаций содержит несколько интерпретаций внутри одной части речи,
тогда приходится снова выбирать наиболее продуктивную аннотацию, используя
частотность набора окончаний. Если слово не было предсказано как существительное,
тогда в список возможных интерпретации добавляется вариант интерпретации как
неизменяемого существительного во всех родах и числах (поскольку ненайденные
слова чаще всего существительные). Таким образом, в конце получается набор из
аннотаций, число которых не больше числа продуктивных частей речи и который
обязательно содержит вариант интерпретации существительным.<o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:35.4pt'><span lang=RU style='mso-ansi-language:
RU'>Общая скорость предсказания(обе процедуры) в два<span style="mso-spacerun:
yes">  </span>раза ниже скорости основного поиска словоформ в словаре, но это
не столь существенно, так как число ненайденных слов в нормальных текстах редко
превышает 5 процентов. Нужно сказать еще, что скорость основного автомата,
которая<span style="mso-spacerun: yes">  </span>была приведена в таблице
выше,<span style="mso-spacerun: yes">  </span>была замерена с включенным
предсказанием.<o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:35.4pt'><span lang=RU style='mso-ansi-language:
RU'>Качество предсказания было подсчитано только для русского языка. Это было
сделано следующим образом. Взяты новостные тексты, наугад выбраны 150
неповторяющихся<span style="mso-spacerun: yes">  </span>предсказанных слов. Эти
слова не должны быть аббревиатурами (все буквы в верхнем регистре). Все слова
оказались либо существительными, либо прилагательными. Для 131 слова в
результатах предсказания был хотя бы один правильный результат (одновременно
лемма, часть речи, род, число и падеж). Т.е.<span style="mso-spacerun: yes"> 
</span>точность предсказания – 87%. Этот результат вполне сравним с
результатами<span style="mso-spacerun: yes">  </span>других исследователей,
например, для английского языка - 85 % (см. [5]) , или для французского – 88%
(см [6]).<o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:27.0pt'><span lang=RU style='mso-ansi-language:
RU'><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:27.0pt'><span lang=RU style='mso-ansi-language:
RU'><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:27.0pt'><span lang=RU style='mso-ansi-language:
RU'><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

<h2><span lang=RU>Литература</span></h2>

<p class=MsoNormal style='text-indent:27.0pt'><span lang=RU style='mso-ansi-language:
RU'><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

<p class=MsoNormal style='margin-left:17.0pt'><span lang=RU style='mso-ansi-language:
RU'>[1]<span style='mso-tab-count:1'>  </span>Гладкий А.В. Формальные
грамматики и языки. М.: Наука, 1973. 368 с. <o:p></o:p></span></p>

<p class=MsoNormal style='margin-left:17.0pt'><span lang=RU style='mso-ansi-language:
RU'><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

<p class=MsoNormal style='margin-left:17.0pt'><span lang=EN-US
style='mso-ansi-language:EN-US'>[2]<span style='mso-tab-count:1'>  </span>Jan
Daciuk, </span><a
href="http://www.win.tue.nl/fastar/main.php?button=supervisors"><span
lang=EN-US style='mso-ansi-language:EN-US'>Bruce Watson</span></a><span
lang=EN-US style='mso-ansi-language:EN-US'>, and Richard Watson, </span><i><a
href="http://www.eti.pg.gda.pl/~jandac/incr_fst.ps.gz"><span lang=EN-US
style='mso-ansi-language:EN-US'>Incremental Construction of Minimal Acyclic
Finite State Automata and Transducers</span></a></i><span lang=EN-US
style='mso-ansi-language:EN-US'>, proceedings of </span><a
href="http://www.nlp.cs.bilkent.edu.tr/fsmnlp98/"><span lang=EN-US
style='mso-ansi-language:EN-US'>Finite State Methods in Natural Language
Processing</span></a><span lang=EN-US style='mso-ansi-language:EN-US'>, pp.
48-56, Bilkent University, Ankara, Turkey, June 29 - July 1, 1998. </span><span
lang=RU style='mso-ansi-language:RU'><o:p></o:p></span></p>

<p class=MsoNormal style='margin-left:17.0pt'><span lang=RU style='mso-ansi-language:
RU'><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

<p class=MsoNormal style='margin-left:17.0pt'><span lang=EN-US
style='mso-ansi-language:EN-US'>[3]<span style='mso-tab-count:1'>  </span>Lezius,
Wolfgang (2000) <i>Morphy - German Morphology, Part-of-Speech Tagging and
Applications</i> in Ulrich Heid; Stefan Evert; Egbert Lehmann and Christian
Rohrer, editors, Proceedings of the 9th EURALEX International Congress pp.
619-623 Stuttgart, Germany.</span><tt><span lang=EN-US style='font-size:10.0pt;
mso-ascii-font-family:"Times New Roman";mso-hansi-font-family:"Times New Roman";
mso-bidi-font-family:"Times New Roman";mso-ansi-language:EN-US'>&nbsp;&nbsp;</span></tt><span
lang=EN-US style='mso-ansi-language:EN-US'> (</span><a
href="http://www-psycho.uni-paderborn.de/lezius/"><span lang=EN-US
style='mso-ansi-language:EN-US'>http://www-psycho.uni-paderborn.de/lezius/</span></a><span
lang=EN-US style='mso-ansi-language:EN-US'>)</span><span lang=RU
style='mso-ansi-language:RU'><o:p></o:p></span></p>

<p class=MsoNormal style='margin-left:17.0pt'><span lang=RU style='mso-ansi-language:
RU'><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

<h1 style='margin-top:0cm;margin-right:0cm;margin-bottom:0cm;margin-left:17.0pt;
margin-bottom:.0001pt'><span lang=EN-US style='font-size:12.0pt;mso-bidi-font-size:
16.0pt;font-family:"Times New Roman";mso-ansi-language:EN-US;font-weight:normal'>[4]<span
style='mso-tab-count:1'>  </span>Damir &#262;avar, Alexander Geyken, Gerald
Neumann(2000) <em><a
href="http://digital%20dictionary%20of%20the%2020th%20century%20german%20language/"><span
style='font-style:normal'>Digital Dictionary of the 20</span><sup><span
style='font-style:normal'>th</span></sup><span style='font-style:normal'> Century
German Language</span></a></em> in Language Technologies Conference 17 - 18
October 2000 Slovenia<span style="mso-spacerun: yes">  </span>(</span><span
lang=RU style='font-size:12.0pt;mso-bidi-font-size:16.0pt;font-family:"Times New Roman";
font-weight:normal'>см</span><span lang=EN-US style='font-size:12.0pt;
mso-bidi-font-size:16.0pt;font-family:"Times New Roman";mso-ansi-language:EN-US;
font-weight:normal'>. c</span><span lang=RU style='font-size:12.0pt;mso-bidi-font-size:
16.0pt;font-family:"Times New Roman";font-weight:normal'>айт</span><span
lang=RU style='font-size:12.0pt;mso-bidi-font-size:16.0pt;font-family:"Times New Roman";
mso-ansi-language:EN-US;font-weight:normal'> </span><span lang=RU
style='font-size:12.0pt;mso-bidi-font-size:16.0pt;font-family:"Times New Roman";
font-weight:normal'><a href="http://www.dwds.de/"><span lang=EN-US
style='mso-ansi-language:EN-US'>www.dwds.de</span></a></span><span lang=EN-US
style='font-size:12.0pt;mso-bidi-font-size:16.0pt;font-family:"Times New Roman";
mso-ansi-language:EN-US;font-weight:normal'>)<o:p></o:p></span></h1>

<p class=MsoNormal style='margin-left:18.0pt'><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></p>

<p class=MsoNormal style='margin-left:18.0pt'><span lang=EN-US
style='mso-ansi-language:EN-US'>[5] Jan Daciuk, </span><i><a
href="http://www.cs.uni-potsdam.de/~wia99/FPAPERS/daciuk.ps"><span lang=EN-US
style='mso-ansi-language:EN-US'>Treatment of Unknown Words</span></a></i><span
lang=EN-US style='mso-ansi-language:EN-US'>, proceedings of </span><a
href="http://www.cs.uni-potsdam.de/~wia99/"><span lang=EN-US style='mso-ansi-language:
EN-US'>Workshop on Implementing Automata WIA'99</span></a><span lang=EN-US
style='mso-ansi-language:EN-US'>, Potsdam, Germany, 1999, (C) </span><a
href="http://www.springer.de/"><span lang=EN-US style='mso-ansi-language:EN-US'>Springer
Verlag</span></a><span lang=EN-US style='mso-ansi-language:EN-US'> LNCS Series </span><a
href="http://link.springer.de/link/service/series/0558/tocs/t2214.htm"><span
lang=EN-US style='mso-ansi-language:EN-US'>Volume 2214</span></a><span
lang=EN-US style='mso-ansi-language:EN-US'>, pp. 71-80, 2001.<o:p></o:p></span></p>

<p class=MsoNormal style='margin-left:18.0pt'><span lang=EN-US
style='mso-ansi-language:EN-US'><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

<p class=MsoNormal style='margin-left:18.0pt'><span lang=EN-US
style='mso-ansi-language:EN-US'>[6] Andrei Mikheev,A Automatic Rule Induction
for Unknown Word Guessing, In <i>Computational Linguistics</i> vol 23(3), ACL
1997. pp. 405-423<o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:27.0pt'><span lang=EN-US
style='font-size:10.0pt;mso-bidi-font-size:12.0pt;mso-ansi-language:EN-US'><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

</div>

<div style='mso-element:footnote-list'><![if !supportFootnotes]><br clear=all>

<hr align=left size=1 width="33%">

<![endif]>

<div style='mso-element:footnote' id=ftn1>

<p class=MsoFootnoteText><a style='mso-footnote-id:ftn1' href="#_ftnref1"
name="_ftn1" title=""><span class=MsoFootnoteReference><span lang=RU><span
style='mso-special-character:footnote'><![if !supportFootnotes]>[1]<![endif]></span></span></span></a><span
lang=RU> В основе русского словаря лежит морфологический словарь Зализняка.</span></p>

</div>

<div style='mso-element:footnote' id=ftn2>

<p class=MsoFootnoteText><a style='mso-footnote-id:ftn2' href="#_ftnref2"
name="_ftn2" title=""><span class=MsoFootnoteReference><span lang=RU><span
style='mso-special-character:footnote'><![if !supportFootnotes]>[2]<![endif]></span></span></span></a><span
lang=RU> В основе немецкого словаря лежит словарь </span><span
style='mso-ansi-language:DE'>Morphy</span><span lang=RU>[3].</span></p>

</div>

<div style='mso-element:footnote' id=ftn3>

<p class=MsoFootnoteText><a style='mso-footnote-id:ftn3' href="#_ftnref3"
name="_ftn3" title=""><span class=MsoFootnoteReference><span lang=RU><span
style='mso-special-character:footnote'><![if !supportFootnotes]>[3]<![endif]></span></span></span></a><span
lang=RU> В основе английского словаря лежит словарь </span><span
style='mso-ansi-language:DE'>Wordnet</span><span lang=RU>.</span></p>

<p class=MsoFootnoteText><span lang=RU><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

</div>

<div style='mso-element:footnote' id=ftn4>

<p class=MsoFootnoteText><a style='mso-footnote-id:ftn4' href="#_ftnref4"
name="_ftn4" title=""><span class=MsoFootnoteReference><span lang=RU><span
style='mso-special-character:footnote'><![if !supportFootnotes]>[4]<![endif]></span></span></span></a><span
lang=RU> Все расчеты выполнены на </span><span lang=EN-GB style='mso-ansi-language:
EN-GB'>P</span><span lang=RU>4 2,6 </span><span lang=EN-GB style='mso-ansi-language:
EN-GB'>GHz</span><span lang=RU>, 512 </span><span lang=EN-GB style='mso-ansi-language:
EN-GB'>MB</span><span lang=RU> ОЗУ, </span><span style='mso-ansi-language:DE'>Windows</span><span
lang=RU> 2000.</span></p>

</div>

</div>

</body>

</html>
